الگوریتم های یادگیری تقویتی فازی در محیط های نویزی با استفاده از سیستم های فازی بازه ای

پایان نامه
چکیده

یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. در تحقیقات بسیاری نشان داده شده است که سیستم های فازی نوع-2 در مقابل عدم قطعیت و نویز ورودی بهتر از سیستم فازی نوع -1 عمل می کنند. در این پژوهش به منظور بهبود مقاومت و عملکرد الگوریتم های یادگیری sarsa فازی و یادگیریq فازی ازسیستم های فازی نوع-2 بازه ای به عنوان تقریبگر تابع استفاده شده است. در این راستا به کارگیریچهار نوع متفاوت ازسیستم های فازی بازه ای پیشنهاد شده است. سیستم های فازی به کاررفته در واحد پردازشگر خروجی متفاوتند.بنابراین چهار الگوریتم بر مبنای یادگیریq و چهار الگوریتم برای یادگیری sarsa پیشنهاد شده است.الگوریتم های پیشنهادی برروی مسئله پارک کامیون پیاده سازی شده اند. مقدار خطا، سرعت پارک کامیون و سرعت همگرایی الگوریتم های پیشنهادی با نتایج حاصل از الگوریتم های یادگیری qفازی مرسوم و یادگیریsarsaفازی توسط آزمون های آماریمقایسه شده اند.با توجه بهنتایج آزمون های آماری به نظر می رسد که الگوریتم های پیشنهادیمقاومت بیشتری در مقابل نویز ورودی نسبت به الگوریتم های یادگیری تقویتی فازی نوع -1دارند و سیاست نهایی حاصل، عملکرد بهتری دارد زیرا کامیون در مدت زمان کوتاهتری در ناحیه مطلوب پارک می شود.اما در مورد سرعت همگرایی الگوریتم ها این بهبود در همه موارد مشاهده نمی شود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تولید قواعد فازی احتمالی به‌کمک یادگیری تقویتی

مهم‌ترین بخش در یک سیستم فازی پایگاه قواعد آن است. یکی از مشکلات موجود در تولید قواعد فازی با داده‌های آموزشی، وجود داده‌های ناسازگار است زیرا در این‌گونه داده‌ها چند خروجی برای وضعیت‌های یکسان وجود دارد. لذا تولید قواعد و تصمیم‌گیری برای انتخاب تالی مناسب برای هر قاعده با چالش همراه خواهد بود. روش‌های موجود از برآیند حالت‌های ناسازگار استفاده می‌کنند که باعث تولید خروجی با مقدار میانگین تالی‌ه...

متن کامل

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

متن کامل

یک الگوریتم یادگیری ترکیبی جهت طراحی شبکه های موجک فازی برای تقریب توابع، شناسایی و کنترل بهنگام سیستم های غیرخطی

در این مقاله، یک الگوریتم یادگیری ترکیبی جدید برای طراحی شبکه های موجک فازی به منظور تقریب توابع، کنترل و شناسایی سیستم های غیرخطی ارائه شده است. الگوریتم پیشنهادی مبتنی بر الگوریتم حداقل مربعات متعامد (OLS)، الگوریتم جهش قورباغه های بهم آمیخته (SFL) و روش حداقل مربعات بازگشتی(RLS) می باشد. الگوریتم حداقل مربعات متعامد جهت تعیین ابعاد شبکه، غربال کردن موجکها به منظور انتخاب موجکهای مؤثرو تع...

متن کامل

ارزیابی استفاده از الگوریتم های فازی در افزایش دقت نقشه های کاربری اراضی استخراج شده با روش های پردازش شیءگرا

د‌‌رراستای هدف استخراج سریع نقشه‌‌های کاربری اراضی،تکنولوژی سنجش ازد‌‌وربه عنوان یک فناوری کارآمد‌‌شناخته شد‌‌ه که باارائه تصاویرماهواره‌‌ای امکا ن استخراج نقشه‌‌های کاربری اراضی رافراهم می آورد‌‌. سنجش ازد‌‌ورباارائه تصاویرماهواره‌‌ا ی با قد‌‌رت زمانی متفاوت مد‌‌لسازی وپایش تغییرات محیطی راممکن ساخته که این امر،گامی مهم د‌‌رمد‌‌یریت منابع طبیعی محسوب می‌شود‌‌. روشﻃﺒﻘﻪﺑﻨﺪیﺷﻲءﮔﺮامبتنی برالگوریتم...

متن کامل

کاربرد سیستم های فازی در اندازه گیری های آموزشی - تربیتی

هدف اصلی از بکار گیری آزمون های پیشرفت تحصیلی، ارزیابی آموخته های تحصیلی یادگیرندگان می باشد. آزمون های پیشرفت تحصیلی همانند  دیگر آزمون های روانشناختی و همچنین مقیاس های مختلف درجه بندی رفتار، تنها زمانی مفید و قابل استفاده می باشند که برآوردی مناسب و بدون سوگیری  از متغیر مورد نظر فراهم نمایند. با این حال،  بواسطه ماهیت متغیر های مورد مطالعه در حوزه روانشناسی و تعلیم و تربیت و همچنین ویژگی ها...

متن کامل

بررسی پایداری فازی در سیستم های تعادلی با استفاده از روش پیوستگی هموتوپی در فضای موهومی

تاکنون روش های بسیاری برای تجزیه و تحلیل مسایل مهندسی شیمی توسط محققین ارائه شده است ، اطلاع از تعداد فازهای در حال تعادل برای یک سیستم تعادلی و محاسبه اجزای موجود در هر فاز مساله مهمی است که سالها ذهن محققین را به خود مشغول کرده است. در این میان روش ارائه شده توسط میکلسن(Michelsen,1982) برای محاسبه تعداد فازهای در حال تعادل در یک سیستم تعادلی بیش از هر روش دیگری دست مایه کار محققین بوده است. ص...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023